2025/08/22

AI 簡史:從概念到實踐(4/4)機器學習的再興:統計學習與資料探勘(1990s - 2010)

 機器學習的再興:統計學習與資料探勘(1990s - 2010)

從「知識驅動」走向「資料驅動」

經歷過兩次的起落,人工智慧(AI)的發展在1990年代迎來了另一個關鍵的轉捩點:統計學習(Statistical Learning)和資料探勘(Data Mining)的興起,並促使AI領域的研究轉向資料驅動(data driven)的方法。

如同前面提過的,第一波由感知元(Perceptron)等早期神經網路模型帶來的 AI 興起與衰落,導致人工智慧的研究重心轉向了以邏輯和知識為基礎的方法,也造成了人工智慧與機器學習(Machine Learning, ML)之間出現了分歧。然而到了1980年代中期,由於專家系統一樣未能兌現大眾對其過度膨脹的期望,帶來了第二次AI寒冬。而這次的挫折,促使 AI 領域又一次重新思考未來研究的方向。

1988年,IBM T.J. Watson 研究中心的科學家們發表了「語言翻譯的統計方法」(A Statistical Approach to Language Translation),標誌著機器翻譯從基於規則的方法轉向機率方法的關鍵轉變。這種新方法強調從資料中的統計型態學習,而不是試圖理解語言本身。

從過去的經驗中,大家知道 AI 的目標應當從「實現人工智慧」轉變為「解決實際的問題」。而專家系統背後符號邏輯方法的受挫,讓機率論和統計學的方法與模型獲得了重視。正是在這個背景下,1990年代開始,機器學習從知識驅動的方法轉向了資料驅動的方法,重新崛起,並且蓬勃發展。

1990年代,科學家們開始開發程式,讓電腦分析大量的資料,並且從結果中得出結論或「學習」。與傳統統計分析需要事先選擇模型,並基於專家經驗來選擇變量不同,機器學習不依賴預先架構的模型,而是透過演算法在資料中尋找潛在結構來塑造模型:輸入的資料越多,模型就越精確。

在這段期間,許多基於資料驅動思維的演算法被提出,其中最廣為使用的三個方向有:核函數(Kernel Methods)支援向量機(Support Vector Machines, SVMs),決策樹(Decision Trees)與集成學習(Ensemble learning),和貝氏網路(Baysian Networks),我們在第一章已經簡短的做過介紹。

同一時期,儘管人工神經網路的研究在1970年代一度衰落,但1980年代中期反向傳播(backpropagation)演算法的重新發明(由David Rumelhart、Geoffrey Hinton和Ronald Williams發表)使其在1990年代重新又開始發展。

機器學習在1990年代的成功,大部分要歸因於網際網路的發展。數位資料的持續增長以及透過網際網路分享服務的能力,為機器學習提供了豐富的「訓練資料」。由於機器學習演算法透過「資料」自動建立數學模型,進而形成無需人類知識介入即可做出決策的系統,故而這種大規模資料的可用性,是「資料驅動」方法崛起的重要推動力。


核函數(Kernel methods)與支援向量機 (Support Vector Machines, SVMs)

支援向量機是一種同時可以用於分類(classification)和迴歸(regression)的監督式學習(supervised learning)方法。它們在1990年代因其強大的性能而嶄露頭角並普及。

SVM 將每個特徵向量視為高維空間中的一個點,並繪製一條線(或一個超平面,hyperplane)來區分具有正標籤和負標籤的資料點。這個分離兩個類別範例的邊界被稱為決策邊界(decision boundary)。SVM 的目標是找到一個能最大化兩個類別資料之間邊界(margin)的超平面。這個邊界是距離兩類最近的範例之間的距離,更大的邊界有助於讓模型遇到新的資料點時,能夠有更好的泛化能力,做出正確的判斷。

原始SVM演算法是由蘇聯數學家弗拉基米爾·瓦普尼克(Владимир Наумович Вапник)和亞歷克塞·澤范蘭傑斯(Алексей Яковлевич Червоненкис)於1963年發明的,在數學上與邏輯迴歸(Logistic Regression)相似,尋找的是單純的線性決策邊界。1992年,伯恩哈德·E·博瑟(Bernhard E. Boser)、伊莎貝爾·M·蓋昂(Isabelle M. Guyon)和瓦普尼克提出了一種加入核函數技巧,讓 SVM 得以構建非線性的超平面。核函數可以將原始輸入資料映射到一個高維度的特徵空間,使得資料在該空間中變得可以被線性分離。如此一來,即使在原始空間中資料不是線性可分的,也能透過核技巧找到一個非線性的決策邊界。

SVM 的決策規則僅基於訓練資料的一小部分子集—「支援向量」(support vectors),這使得遠離超平面的觀測結果(outliers)對 SVM 的決策結果影響很小,也使得 SVM 具有相當的穩健性(robustness)。


決策樹 (Decision Trees)與集成學習 (Ensemble learning)

決策樹(Decision Trees)是一種使用樹狀結構作為預測模型的學習方法,依據變量的數值來判斷走向那一個分支,最後的終點則是預測的結果。這個結果可以是類別的標籤、數值,或是機率,因此決策樹可以處理分類和迴歸兩種問題。

決策樹的每個節點使用的變量和分枝的標準,都是由資料中學習而來,其建構過程通常採用一種「由上而下」(top-down)、貪婪(greedy)的方法,稱為遞迴二元分割(recursive binary splitting)。它從樹的頂端開始,然後逐步分割自變量形成的向量空間;每次分割都透過樹中更深處的兩個新分支來表示。這個過程會持續進行,直到達到停止條件為止,例如直到沒有區域包含少於一定數量的觀測值。

決策樹的優點在於它非常容易向人們解釋,甚至比線性迴歸更容易。它們可以用圖形化來顯示,即使非專家也能輕鬆理解。決策樹能夠輕鬆處理類別的自變量,而無需像線性迴歸一樣建立虛擬變數。但它的缺點也非常明顯:它的預測準確度通常不如其它演算法,而且決策樹在穩健性上不甚可靠(non-robust),資料中的微小變化可能導致最終估計的樹發生巨大變化。

儘管決策樹在單獨使用時存在諸多缺點,但透過集成學習(ensemble learning)方法(如Bagging 和 Boosting),將許多決策樹聚合起來,其預測性能可以得到顯著提升。

Leo Breiman 於 2001 年在《Random Forest》一文中描述了一種結合 bagging,利用決策樹演算法來構建一個包含很多彼此不相關的樹,也就是森林,的方法。這個被稱為隨機森林的演算法,在數學上有堅實的理論證明,在實務上也有良好的表現,使得決策樹成為集成學習方法中很常用的「弱學習器」(weak learners)成員。


貝氏網路 (Bayesian Networks)

貝氏網路(Bayesian network),也稱為信念網路(belief network)或有向無環圖模型(directed acyclic graphical model),是一種機率圖形模型,表示一組隨機變數及其條件獨立性。

貝氏網路可以表示變數之間的機率關係,圖中的節點表示隨機變數,它們可以是實際觀察到的變數,也可以是理論假設中的潛在變量、未知參數等等。連接兩個節點的箭頭,代表此兩個隨機變數是具有因果關係,其中一個節點是「因(parents)」,另一個是「果(descendants or children)」,彼此之間有一個條件機率值;而兩個節點間若沒有箭頭相互連接,則代表彼此間為條件獨立。

舉例來說,我們可以用貝氏網路可來表示疾病和其相關症狀間的機率關係;倘若已知某些症狀,就可以用這個網路模型來計算罹患各種疾病的機率。

基於貝氏網路的衍生模型很多,例如條件隨機場(Conditional Random Field, CRF)和隱馬可夫模型(Hidden Markov Model, HMM)等等,常用於自然語言處理和圖像處理等領域。除了計算速度較慢之外,貝氏網路紮根於機率論和統計學,符合1990年代以來的大趨勢;而以圖的形式來表示因果關係,容易與理論和專家知識相結合,也符合之前專家系統的思維方式。因此,貝氏網路一直是 AI 領域中重要的一個分支。


總體而言,1990年代AI的發展,正是在專家系統的局限性下,轉向了更依賴資料、統計學和機率的方法。SVMs、決策樹和貝氏網路的興起,標誌著AI開始透過從大量的資料中學習來解決實際問題,而非僅僅依賴人類專家的知識,為後續人工智慧的黃金時代奠定了堅實的基礎。

AI 簡史:從概念到實踐(3/4)「專家系統」與第二波 AI 寒冬(1980s - 1990s)

 「專家系統」與第二波 AI 寒冬(1980s - 1990s)



知識系統及其應用

在1970年代中期的「第一次AI寒冬」之後,AI研究的重點從早期的演算法和神經網路,轉向了邏輯(logical)和知識為基礎(knowledge-based)的方法,而在這個背景下,專家系統(Expert systems)應運而生,主導了整個1980年代的 AI 領域。

專家系統的核心構想是透過模仿人類專家的思考和決策過程來解決複雜問題。它的基礎是一個能夠儲存、管理和運用專業知識的知識系統。這樣的系統有兩個主要的研究方向:「知識表徵」(Knowledge Representation)以及「推理引擎」(Inference Engine)

專家系統的核心是知識庫(Knowledge Base),它將人類專家的專業知識和經驗轉化為機器可讀的符號形式。這些知識通常以事實 (Facts)規則 (Rules)兩種主要形式來表示。事實,是關於特定領域的客觀資訊或數據。規則,則以「如果-那麼」(IF-THEN)的邏輯論述表達,例如:「如果病人有發燒且咳嗽,那麼他可能是罹患感冒」。這些規則是從領域專家的經驗中提取的,捕捉了他們解決問題的捷徑方法(heuristics)。

推理引擎則是專家系統的「大腦」,負責運用知識庫中的規則和事實來進行邏輯推理,以解決問題、得出結論。常見的推理策略包括:

  • 向前鏈接 (Forward Chaining):從已知的初始事實出發,逐步應用符合條件的規則,推導出新的事實或最終結論。這通常用於從觀察結果推導原因(例如:從症狀推導疾病)。

  • 向後鏈接 (Backward Chaining):從一個假設的目標或結論出發,尋找支持該目標所需的規則和事實。如果目標無法直接支持,系統會尋找支持其子目標的規則,直到找到已知事實。這通常用於目標導向的問題解決(例如:要達到目標X,需要滿足什麼條件?)。

為了讓非專業使用者也能操作,專家系統通常配備直觀的使用者介面,例如「解釋模組」,它能向使用者說明系統是如何得出特定結論的。這對於建立使用者對系統的信任和理解非常重要。

在1980年代,專家系統因在某些特定領域展現出接近人類專家的表現而受到熱烈追捧,舉例如下:

  • 醫學診斷:最著名的例子是 MYCIN 系統,它是一個向後鏈接的專家系統,旨在診斷血液感染並推薦抗生素治療。儘管 MYCIN 因倫理和法律原因從未大規模實際部署,但它證明了專家系統在複雜醫學診斷方面的潛力。

  • 化學分析:例如 DENDRAL 系統,能夠根據質譜儀的數據來推斷有機化合物的分子結構,被認為是最早的成功AI系統之一。

  • 設備配置與故障診斷:最具商業成功案例的是 DEC 公司(Digital Equipment Corporation)的 R1(後改名為XCON),它用於自動配置大型電腦系統訂單。這個系統為公司節省了數百萬美元,並成為了專家系統商業成功的典範。

  • 金融服務:用於貸款評估、風險分析和股票交易策略建議。

  • 工程設計與規劃:協助設計複雜系統或規劃生產流程。

總而言之,專家系統的興盛代表了人工智慧發展史上的一個重要階段,它將AI的焦點從模擬通用智慧轉向了在特定專業領域中展現「智慧」行為,強調了邏輯和知識表徵的重要性,恰好是對第一波人工智慧寒冬的一種反思。它們在當時的應用雖然集中於狹窄領域,但成功證明了AI技術的商業潛力,為後續更廣泛的AI研究奠定了基礎。


脆弱性以及過大規模的困難

歷史總是不斷重演,專家系統的發展以及應用,在經歷一連串的成功與追捧之後,再度遭遇了嚴重的瓶頸,而這些瓶頸也帶來了人工智慧領域的又一個低谷——第二次AI寒冬(Second AI Winter)。而這次的低谷,一樣也是肇因於對人工智慧領域過度膨脹的期望(hype),最終未能實現。

雖然專家系統在應用上獲得了很多的成功,但這門技術本身就有著固有的挑戰,列舉如下。

首先,是知識獲取瓶頸(Knowledge Acquisition Bottleneck)。建立專家系統的核心是透過人類專家來提取專業知識,並將這些知識轉換成機器可讀的規則形式。這是一個極其耗時、耗力且昂貴的過程。更甚者,人類專家的知識往往是直覺的、難以用語言表達的,導致很難完全且精確地編碼成「如果-那麼」形式的規則。而且,即使知識被成功編碼,也難以確保其完整性和一致性,例如總有規則以外的特例,或是不同專家的知識相衝突。

第二,是脆弱性與缺乏常識(Fragility and Lack of Common Sense)。專家系統的「智慧」被限制在其知識庫所定義的狹窄領域內。一旦遇到知識庫中沒有預設規則或稍有偏差的情境,系統就可能完全失效或給出荒謬的結果。它們無法像人類一樣運用常識來應對預料之外的情況。這種「脆弱性」使得它們在現實世界中,尤其是在需要處理模糊、不確定或跨領域資訊的環境下,表現得不夠穩健。

第三,是規模化的困難(Scalability Issues)。當問題領域變大或複雜度增加時,知識庫中的規則數量會呈指數級增長,導致系統變得龐大、難以管理和維護。而每新增一條規則,可能會意外地與成千上萬條現有規則產生衝突,使得維護和更新極為困難。

最後,是專家系統缺乏學習與適應能力(Lack of Learning and Adaptability)。早期的專家系統是靜態的,它們不具備從經驗中自動學習和改進的能力。它們的知識必須由人類手動輸入和更新,這與機器學習「無需明確編程即可學習和適應」 的核心理念相悖。

由於上述的這些瓶頸,專家系統雖然在某些特定案例中展現了成功,但普遍未能兌現其過度樂觀的承諾,尤其是在通用人工 智慧和大規模應用方面。

在1984年的「人工智慧促進協會(AAAI)」年會上,羅傑·尚克(Roger Schank)和馬文·明斯基(Marvin Minsky)便發出了AI寒冬即將來臨的警告,預測圍繞人工智慧的「膨脹期望」很快會導致投資和研究的崩潰,如同1970年代中期的資金削減。

他們的預測在三年內變為現實。由於未能實現的承諾,大眾對AI的興趣銳減,研究資金也大幅減少,導致了第二次AI寒冬的來臨。1988年,美國政府的戰略計算計劃(Strategic Computing Initiative)決定不再資助 AI 研究,接著專家系統的發展也逐漸到達極限,造成 AI研究進展的全面放緩。

總之,專家系統雖然在AI歷史上佔有一席之地,並在知識表徵和推理方面奠定了基礎,但其內在的脆弱性、知識獲取和維護的困難,以及難以規模化的問題,最終導致其未能滿足社會的過高期望,進而引發了第二次AI寒冬,迫使AI領域進入了又一個反思和調整的時期。


AI 簡史:從概念到實踐(2/4)早期 AI 的興起與沒落(1950s - 1970s)

 

早期 AI 的興起與沒落(1950s - 1970s)

初期的成功

感知元(Perceptron)與多層感知器 (Multi-layer Perceptron, MLP)

AI 的早期發展,主要涵蓋了兩種截然不同的思維路徑:「感知元」(Perceptron)代表了受生物學啟發的連接主義(connectionism)方法,而「符號推理」(Symbolic Reasoning)則代表了基於邏輯和知識的傳統AI方法。

感知元(Perceptron)是由心理學家及電腦科學家法蘭克·羅森布拉特(Frank Rosenblatt)於1957年在康乃爾航空實驗室工作時所提出的,屬於人工神經網路(ANN)模型最早期的實作案例之一。感知元的誕生結合了唐納德·赫布(Donald Hebb)關於腦細胞互動的模型,以及亞瑟塞繆爾(Arthur Samuel)的機器學習研究成果。依據赫布提出的神經元模型所描述,當一個神經細胞反覆的激發另一個神經細胞時,第一個神經細胞的軸突會發展出與第二個細胞胞體接觸的突觸小結,或是增大已有的突觸小結。這樣的概念被轉化為人工神經網路的數學設計:當兩個神經元同時被激活時,它們之間的「權重」(weight)會加強;反之,若分別激活,則權重會減弱。

感知元可謂是第一個具備學習能力的類神經網路模型,它擁有輸入層輸出層,能夠解決簡單的二元分類問題。這在當時引起了巨大的轟動,讓學術界對「會思考的機器」充滿了無限想像。

然而,這股樂觀情緒很快就受到了挑戰。1969年,學者們指出單層感知器有其根本性的限制,例如它無法解決非線性問題。馬文·明斯基(Marvin Minsky)和西摩爾·帕佩特(Seymour Papert)在1969年出版的《Perceptrons》一書中,詳細分析了簡單神經網路的局限性。為了解決這個問題,研究者加入了「隱藏層」,構成了多層感知器 (Multi-layer Perceptron, MLP)。理論上,只要隱藏層有足夠多的神經元,一個具備單一隱藏層的淺層網路就能夠擬合任何連續函數,這就是著名的通用逼近定理 (Universal Approximation Theorem)

感知元在早期展現了巨大的潛力,並引起了廣泛的媒體關注。然而,它也面臨著「預期落差」的問題。例如,感知元只能辨識很少數的影像類別,而如人臉、指紋等等實際應用所需的影像型態都無法處理。這種限制,導致了人工神經網路研究的受挫和停滯,挹注的資金也隨之減少,這種低谷持續了數年,直到1990年代才出現復甦。而人工神經網路在研究預的式微,成為符號推理研究得以興盛的契機。

符號推理(Symbolic Reasoning)

除了模仿神經系統的認知元之外,在人工智慧領域的早期,有另一派 AI 研究的學者,強調以邏輯(logical)知識(knowledge-based)為基礎的方法,來模擬人類的思考過程。這個研究取向的核心思想受到當時維也納學派(Wiener Kreis)的影響,認為人類的智慧可以被分解為一系列明確定義的符號和規則,並透過邏輯操作來處理這些符號。

約翰·麥卡錫(John McCarthy)是在達特矛斯工作坊中提出「人工智慧」一詞的關鍵人物之一。他在1959年的論文《Programs with Common Sense》中,介紹了 Advice Taker 的概念:麥卡錫設想了一個系統,它能夠理解指令、利用常識知識(common-sense knowledge)進行推理,並從經驗中學習;而其長期目標是開發能像人類一樣有效適應和學習的AI。Advice Taker 的概念也形塑了早期知識表徵(knowledge representation)和自動化推理(automated reasoning)的研究,從而為AI中的推理能力奠定了基礎。

1970年,特里·溫諾格拉德(Terry Winograd)創建了SHRDLU,這是一個開創性的自然語言理解程式。SHRDLU 能夠用簡單的英語與使用者互動,並在一個虛擬的積木世界中操作物體。這個專案是自然語言處理(Natural Language Processing, NLP)的早期成就,儘管其成功受限於特定且高度結構化的環境,但依然展示了電腦理解和回應複雜指令的潛力,反映出當時符號邏輯在有限領域內實現「理解」的努力。

總而言之,感知元與符號推理代表了AI早期探索的兩條主線:前者試圖從類比生物大腦的底層學習機制出發,而後者則追求透過邏輯和規則來編碼和運用知識。這兩條路徑在當時經歷了競爭與分歧,共同塑造了AI領域的早期面貌。

https://www.sciencedirect.com/topics/biochemistry-genetics-and-molecular-biology/perceptron



第一次 AI 寒冬:認知元的瓶頸與沒有達成的期待

「人工智慧」(AI)的發展歷史並非一帆風順,其中第一個低谷期就是發生在1970年代的第一次AI寒冬(AI Winter)。這個時期主要由於早期的過度樂觀預期未能實現,導致研究資金與公眾興趣大幅減少。

如同上一節所述,在 AI 領域發展的早期,尤其是1950年代和1960年代,出現了許多開創性的研究成果,例如感知元(Perceptron)的發明,和自然語言處理程式 SHRDLU。這些成果激發了大眾對AI能力的極大熱情,同時也伴隨著過高的期望。

然而,到了1970年代,現實與這些誇大的預期產生了巨大落差。

1970年,馬文·明斯基曾預言 AI 將在三到八年內達到普通人類的通用智慧。然而,這項大膽的預測過於樂觀,最終未能實現,進一步加劇了公眾和資助機構的失望。這種對AI領域「週期性炒作」的認識也逐漸形成,即樂觀期待暴漲之後,當技術未能滿足投資者和公眾的期望時,隨之而來的是幻滅。

1973年,英國數學家詹姆斯·萊特希爾(James Lighthill)向英國科學研究委員會提交了一份關於AI研究進展的關鍵報告,他認為該領域沒有產生重大的突破,而在報告結論中指出,相對於大規模的資源投入,AI的研究未能兌現其早期承諾。

這份報告導致英國政府大幅削減了對AI研究的資助,而這次事件被認為是第一次AI寒冬的開始,隨著美國國防高等研究計劃署(Defense Advanced Research Projects Agency, DARPA)在1974年決定削減對人工智慧的學術研究,各國政府也相繼開始削減對AI研究的投資。

總之,第一次AI寒冬是AI領域發展中的一個重要轉折點,它揭示了早期人工神經網路逐漸失去了興趣,而這也導致了AI與機器學習之間的裂痕。並促使研究方向從連接主義(如感知元)轉向了更注重邏輯和知識表徵的符號AI方法。到了1980年,專家系統(Expert systems),一種典型的知識型AI系統,主導了整個AI領域,而統計學方法則暫時失寵。這次挫折也強調了在AI發展中,避免過度炒作確立務實目標的重要性。

AI 簡史:從概念到實踐 (1/4)「人工智慧」的誕生與早期的構思

 這也是前陣子寫的部份段落。



給科學家的機器學習快速入門指南

 過去幾個月花了些時間寫了一本小書,還會繼續修改,先把前言放上來,其他的慢慢來。

前言

機器學習(machine learning)是人工智慧(Artifitial Intelligence, AI)以及電腦科學(computer science)的一個分支,主要的研究範疇聚焦在設計「學習」的演算法,讓電腦自動對資料進行歸納與推理,藉以尋找資料內部的特徵和關聯性,利於後續進行分群、分類、辨識與異常偵測等等任務。

早在 AlphaGo 戰勝人類圍棋高手之前,機器學習就已經在我們生活中的各個角落默默的運作著。從網路購物時看到各種「您可能也喜歡…」的推薦、看似能理解人類意圖的搜尋引擎、用語音控制的各式家電,到停車場和高速公路的收費,處處都有機器學習技術的應用。而對於科學家來說,支撐整個機器學習的「資料驅動」(data-driven)精神,除了為分析資料與建立預測模型提供廣泛而實用的工具之外,也在哲學層次上展示了對於理論建構的不同思維方式。

然而,機器學習作為一個獨立的學術領域,相關技術也廣泛的應用在產業與生活之中,身為其他科學領域的研究人員,面對這個既深且廣的知識本體,一時之間難免有不知從何入手的感覺。為了這個緣故,我們編寫了這本小冊子,期待透過對機器學習領域的基本介紹,搭配使用機器學習作為工具的近期研究,來作為科學家們入門機器學習的指南。


2025/07/29

謝天

想像一下:機場外一片祥雲映照,一家人在夕陽下微笑相擁,天際中仿佛有無形的手輕撫日程的波折——那就是「謝天」的味道。希望這張圖片能捕捉你腦海中的感動場景。
弟弟全家回來幫父親過80歲生日,昨天晚上要搭機回加州,我們原本要全家一起送他們去機場,結果小朋友說會暈車不想去,我只好留在家看顧。

不久接到弟弟的電話,說辦理登機的時候發現忘了帶電腦。我看了一下,發現的確忘在原本堆放行李的地方,看了看時間,決定飛車送去機場,幸好還來得及趕上登機。

想想這應該算是好運氣吧。原本小朋友是到哪裡都要跟著叔叔全家的,不知道為什麼突然不想去機場,不然我也沒辦法來得及送東西過去。

該謝的人太多了,那就謝天吧。